L'intelligenza artificiale Claude di Anthropic ora ha la capacità di porre fine alle conversazioni "angoscianti"
L'ultima funzionalità di Anthropic per due dei suoi modelli di Claude AI potrebbe segnare l'inizio della fine per la comunità dei jailbreaker . L'azienda ha annunciato in un post sul suo sito web che i modelli Claude Opus 4 e 4.1 hanno ora la possibilità di terminare una conversazione con gli utenti. Secondo Anthropic, questa funzionalità verrà utilizzata solo in "rari ed estremi casi di interazioni persistentemente dannose o abusive con gli utenti".
Per chiarire, Anthropic ha affermato che questi due modelli di Claude potrebbero interrompere conversazioni dannose, come "richieste da parte degli utenti di contenuti sessuali che coinvolgono minori e tentativi di sollecitare informazioni che consentirebbero violenza su larga scala o atti terroristici". Con Claude Opus 4 e 4.1, questi modelli termineranno una conversazione solo "come ultima risorsa, quando diversi tentativi di reindirizzamento sono falliti e la speranza di un'interazione produttiva è esaurita", secondo Anthropic. Tuttavia, Anthropic afferma che la maggior parte degli utenti non si troverà ad affrontare l'interruzione improvvisa di una conversazione da parte di Claude, anche quando si parla di argomenti altamente controversi, poiché questa funzionalità sarà riservata a "casi limite estremi".
Negli scenari in cui Claude termina una chat, gli utenti non possono più inviare nuovi messaggi in quella conversazione, ma possono iniziarne una nuova immediatamente. Anthropic ha aggiunto che se una conversazione viene terminata, ciò non avrà alcun effetto sulle altre chat e gli utenti possono persino tornare indietro e modificare o riprovare i messaggi precedenti per orientarsi verso un percorso di conversazione diverso.
Per Anthropic, questa iniziativa rientra nel suo programma di ricerca che studia il concetto di benessere dell'IA. Sebbene l'idea di antropomorfizzare i modelli di IA sia ancora oggetto di dibattito, l'azienda ha affermato che la possibilità di uscire da una "interazione potenzialmente stressante" rappresenta un modo economico per gestire i rischi per il benessere dell'IA. Anthropic sta ancora sperimentando questa funzionalità e incoraggia i suoi utenti a fornire feedback quando si imbattono in uno scenario del genere.
engadget